max rank | avg. rank | sentence |
---|---|---|
243 | 77.1000 | A iné to podľa mňa nie je ani na Slovensku. |
351 | 137.5714 | V Bratislave však môže byť všetko inak. |
366 | 156.4000 | Nie je to preto, lebo každý máme tak trochu problém? |
428 | 163.0000 | Čo už si za tie roky mohli ešte povedať. |
459 | 147.6250 | Ale rád by som ešte niečo úplne iné. |
463 | 153.4444 | To však v tom čase bol veľmi veľký problém. |
485 | 246.1250 | A tak vlastne mohol robiť všetko, čo chcel. |
485 | 186.6667 | A vlastne k tomu som chcel aj niečo povedať. |
522 | 206.1818 | Aj keď je celkom dosť možné, že nakoniec nebude vôbec nič. |
549 | 201.2222 | Nie síce tak veľa ako vy, ale tiež dosť. |
555 | 194.8333 | Som veľmi rada, že som bola v spoločnosti ľudí, ktorých mám rada. |
561 | 227.8889 | Len o tri roky neskôr je však všetko inak. |
571 | 145.6364 | To nie, prosím vás, to nie je dobré, to sa nemá. |
575 | 175.4444 | Ale na Slovensku mám túto možnosť len u tzv. |
580 | 270.2857 | Ja naozaj neviem, pretože som tam nebol. |
580 | 212.7778 | Nie som tu správne a neviem, čo mám povedať. |
600 | 242.8750 | Podľa mňa jednoducho taký ľudia na svete sú. |
611 | 166.2222 | Ja s tým skúsenosti mám a je to problém. |
614 | 264.0000 | Teraz to všetko môžete nájsť na jednej stránke. |
649 | 268.3750 | Jej i môj život mohli byť úplne iné. |
656 | 228.1111 | To je ale presne to, čo tí ľudia chcú. |
692 | 171.7500 | Pokiaľ to už nie je dobre možné (napr. |
719 | 384.1250 | Veď vtedy mohol byť v práci niekto iný. |
731 | 218.8889 | No len pred 5 rokmi bolo všetko úplne inak. |
745 | 299.3750 | Som veľmi rada, že som ich mohla vidieť. |
748 | 312.2222 | Preto jej Boh dal všetko, čo jej mohol dať. |
760 | 437.0000 | Ten však nemôže byť príliš veľký. |
764 | 221.0000 | To je web, na ktorom môžete nájsť jeho práce. |
783 | 339.1111 | Ale pokiaľ naozaj chcete výsledky, tak to nebude zadarmo. |
790 | 218.5000 | Na začiatku teda musí byť chuť do práce. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II